El objetivo de esta actividad es realizar un estudio relacionado a los ciberataques de ransomware a empresas en diversos países del mundo entre los años 2014 al 2021, identificar si existe alguna relación entre estos, patrones de comportamiento en común, así como analizar el comportamientos de las empresas víctimas de este tipo de ataques, cuales fueron los ransomware más utilizados y los sectores de la industria más comprometidos por este tipo de ataques.
Para este trabajo se cuenta con un dataset en el que se tiene la información de las empresas víctimas de ataques de ransomware, su tamaño, revenue, país de origen, entro otros datos relevantes para este estudio.
Dataset: Ransomware Attacks.
Año: 2014 - 2021.
Descripción: Dataset el cual contiene los datos de diferentes ataques de Ransomware a empresas en un periodo de 7 años.
Repositorio del dataset: https://www.kaggle.com/shivansh002/ransomware-attacks.
Autor: OnePunchMan.
1. empresa : Es el nombre comercial de la empresa.
2. alias : Es el sobrenombre o el identificador por el cual es más conocida la empresa.
3. desc : Es la industria nicho en la cual está ubicada la empresa.
4. sector : Es el sector en el cual se desarrolla la empresa.
5. tamano : Es el tamaño de la empresa donde 1 significa muy pequeño y 300 muy grande.
6. ingresos : Es la cantidad de ingresos percibidos al año de la empresa(Millones de Dolares).
7. ransomware_cost : Es la cantidad de dinero solicitada por el atacante por el rescate(Millones de Dolares).
8. ransomware_flag_pago : Es el estado final del ataque donde se sabe si se pagó, no pago o no hay información.
9. ransomware_anio : Es el año del ataque Ransomware.
10. ransomware_mes : Es el mes del ataque Ransomware.
11. pais : El país de la empresa.
12. hist_int : Es la historia resumida del ataque.
13. ransomware : Es el nombre del Ransomware utilizado por el atacante.
14. inicio : Es la fecha desde que se tiene registro de los ingresos de la compañía.
15. url : Es la página web de la noticia donde se puede encontrar más información del ataque.
suppressPackageStartupMessages(library(dplyr))
suppressPackageStartupMessages(library(tidyr))
suppressPackageStartupMessages(library(readxl))
suppressPackageStartupMessages(library(plotly))
suppressPackageStartupMessages(library(forcats))
suppressPackageStartupMessages(library(scales))
suppressPackageStartupMessages(library(stringr))
suppressPackageStartupMessages(library(ggplot2))
suppressPackageStartupMessages(library(ggrepel))
suppressPackageStartupMessages(library(magrittr))
suppressPackageStartupMessages(library(kableExtra))
suppressPackageStartupMessages(library(DataExplorer))
suppressPackageStartupMessages(library(formattable))
atack_rw <- read_excel('01.Data/RansomwareAttacksV3.xlsx',sheet = 'Ransomware Attacks')
# Formateo a los nombres de las Variables
names(atack_rw) <- c("empresa", "alias", "desc", "sector", "tamano", "ingresos", "ransomware_cost", "ransomware_flag_pago", "ransomware_anio", "ransomware_mes", "pais", "hist_int", "ransomware", "inicio", "url")
## Rows: 599
## Columns: 15
## $ empresa <chr> "Kaseya", "Salvation Army", "Grupo Fleury", "City~
## $ alias <chr> NA, NA, NA, NA, NA, "Mountain Regional Water Dist~
## $ desc <chr> NA, NA, "Brazil's largest diagnostic company", NA~
## $ sector <chr> "tech", "misc", "healthcare", "government", "misc~
## $ tamano <dbl> 300, 1, 10, 1, 1, 1, 5, 1, 1, 1, 10, 10, 1, 10, 1~
## $ ingresos <dbl> 300.0, NA, 686.0, NA, 8.5, NA, 22.0, NA, NA, NA, ~
## $ ransomware_cost <dbl> 70.00, NA, NA, NA, NA, NA, NA, NA, NA, NA, 0.01, ~
## $ ransomware_flag_pago <chr> "unknown", "unknown", "unknown", "unknown", "unkn~
## $ ransomware_anio <dbl> 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2021, 2~
## $ ransomware_mes <chr> "JUL", "JUN", "JUN", "JUN", "JUN", "JUN", "APR", ~
## $ pais <chr> "USA", "UK", "Brazil", "Belgium", "USA", "USA", "~
## $ hist_int <chr> "Between 800 and 1,500 businesses around the worl~
## $ ransomware <chr> "REvil", "Not revealed", "REvil", "Ryuk", "Not re~
## $ inicio <chr> NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, NA, N~
## $ url <chr> "https://techcrunch.com/2021/07/05/kaseya-hack-fl~
# Removiendo Duplicados
atack_rw %<>% dplyr::distinct(empresa,.keep_all = T)
# Removiendo espacios en blanco
atack_rw %<>% mutate_if(is.character,str_trim)
# Transformado a Minusculas
atack_rw %<>% mutate_if(is.character,str_to_lower)
# Recodificando la Variable ransomware_mes
atack_rw %<>% mutate(ransomware_mes = recode(ransomware_mes,
'jan'='01','feb'='02',
'mar'='03','apr'='04',
'may'='05','jun'='06',
'jul'='07','aug'='08',
'sep'='09','oct'='10',
'nov'='11','dec'='12'
))
# Asignando categoria 'unknown' a los missing en la variable 'ransomware'
# atack_rw$ransomware <- ifelse(is.na(atack_rw$ransomware),'unknown',atack_rw$ransomware)
# atack_rw$ransomware <- ifelse(atack_rw$ransomware=='not revealed','unknown',atack_rw$ransomware)
# Creando variable ransomware_fecha
atack_rw$ransomware_fecha <- as.Date(atack_rw %$% str_c(ransomware_anio,"-",ransomware_mes,"-","01"))
Insights:
Tenemos completitud al 100% de las Variables pais,mes y año del ataque de ransomware, tamaño de la empresa, etc que nos permitiran sacar estadisticas confiables.
Hay un Buen Nivel de empresas con el Dato de Ingresos en total 328(93%) que podemos utilizar para categorizar a empresas con alto,medio y bajo Nivel de Ingresos.
Hay un bajo Nivel del Dato del costo del ransomware 246(70%) empresas, Sin embargo tenemos un 30% que podriamos utilizar para estimar el % del costo del ransomware en funcion del ingreso de la compañia.
Hay un bajo Nivel del Dato del inicio de la compañia 301(85%) empresas, Sin embargo tenemos un 15% que podriamos utilizar para estimar el tiempo promedio transcurrido desde que inicio operaciones la compañia y el ataque de ransomware.
Entre los años 2014 a 2019 tenemos un outlier en la cantidad de ataques de ransomware y ocurrio en Mayo 2017.
El pico de Mayo 2017 corresponde a la aparicion de wannacry, ademas que ese año es conocido como el año del Ransomware
La cantidad de ataques va desde 1 hasta un maximo de 30 por Mes, los picos mas altos ocurrieron en Mayo 2017 y Abril 2021.
A partir del 2019 vemos un tendencia creciente en la cantidad de ataques de ransomware llegando a su tope en Abril 2021.
En los años 2014 a 2016 la cantidad maxima de ataques de ransomware por mes fue de 2.
Durante la pandemia este grafico evidencia el incremento de ataques de ransomware.
| Ransomware | Empresas_afectadas(n) | Empresas_afectadas(%) |
|---|---|---|
| wannacry | 28 | 7.93% |
| revil | 25 | 7.08% |
| ryuk | 19 | 5.38% |
| doppelpaymer | 14 | 3.97% |
| maze | 13 | 3.68% |
Analizando un comportamiento General y el Top 5 de Sectores.
Insights:
Descripcion de los tipos de Empresas:
Pequeña Empresa : Menor a 1000 Millones
Mediana Empresa : Entre 1000 y 10,000 Millones
Gran Empresa : Mayor a 10,0000 Millones
| Tipo de Empresa | Pago Ransomware | No Pago Ransomware |
|---|---|---|
| Grande | 55.56% | 44.44% |
| Mediana | 31.58% | 68.42% |
| Pequeña | 39.34% | 60.66% |
Insights:
Las grandes empresas tienen mas probabilidad de pagar ante un ataque de ransomware.
Las medianas y pequeñas empresas tienen mas probabilidad de no pagar ante un ataque de ransomware.
| Tipo de Empresa | Pago Ransomware | No Pago Ransomware |
|---|---|---|
| Grande | 5 | 4 |
| Mediana | 6 | 13 |
| Pequeña | 24 | 37 |
Insights:
La recompensa promedio en los 3 ultimos años tienen un comportamiento creciente.
La recompensa promedio obtuvo un pico en el 2017 y esto fue debido a la aparicion wannacry .
| Año | Recompensa Prom. | N* Empresas |
|---|---|---|
| 2016 | 0.74 | 9 |
| 2017 | 227.50 | 39 |
| 2018 | 5.03 | 15 |
| 2019 | 5.03 | 28 |
| 2020 | 15.02 | 121 |
Insights:
Insights:
Insights:
Los Meses con mayor cantidad de ataques ocurre en Mayo y Noviembre.
Se observa que antes de los meses 6(Jun) y 12(Dic) el nivel de ataques sigue una tendencia creciente, llegando a su pico 1 mes antes.
Wannacry fue el ransomware que mas afecto a las empresas a nivel mundial.
El pico de Mayo 2017 corresponde a la aparicion de wannacry, ademas que ese año es conocido como el año del Ransomware.
El top 3 de sectores mas atacados fueron el gobierno,tecnologico y salud.
El sector financiero es el que mas ha pagado en ataques de ransomware.
El sector que obtuvo un incremento sustancial en ataques de ransomware fue el tecnologico de 2019-2020.
Las empresas grandes son mas probables a efectuar el pago ante un ataque de ransomware.
USA es el mas pais mas atacado por ransomware seguido por Reino Unido,canada y australia.